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Resume 

Ce travail est motive par un probleme reel appele l'objectivation. II consiste a expliquer 
l'agrement de conduite au moyen de criteres "physiques", issus de signaux mesures lors d'essais. 
Nous suggerons une approche pour le probleme de la selection des variables discriminantes en 
tentant de tirer profit du caractere fonctionnel des donnees. Le probleme est mal pose, au sens 
ou le nombre de variables explicatives est tres superieur a la taille de l'echantillon. La demarche 
procede en trois etapes : un pretraitement des signaux incluant debruitage par ondelettes, re- 
calage et synchronisation, une reduction de la taille des signaux par compression dans une base 
d'ondelettes commune, et enfin l'extraction des variables utiles au moyen d'une strategic inclu- 
ant des applications successives de la methode CART. 

Mots cles : CART, Classification, Discrimination, Ondelettes 

Abstract 

This work is motivated by a real world problem : objectivization. It consists of explaining the 
subjective drivability using physical criteria coming from signals measured during experiments. 
We suggest an approach for the discriminant variables selection trying to take advantage of 
the functional nature of the data. The problem is ill-posed, since the number of explanatory 
variables is hugely greater than the sample size. The strategy proceeds in three steps : a signal 
preprocessing, including wavelet denoising and synchronization, dimensionality reduction by 
compression using a common wavelet basis, and finally the selection of useful variables using a 
stepwise strategy involving successive applications of the CART method. 

Key words: CART, Classification, Wavelets 



1 Introduction 

Ce travail est motive par un probleme reel appele l'objectivation. II consiste a expli- 
quer l'agrement de conduite traduisant un contort ressenti relativement a une prestation 
donnee, par exemple le comportement de la boite de vitesses lors de la phase de mise en 
mouvement d'un vehicule, au moyen de criteres "physiques" , c'est-a-dire de variables is- 
sues de signaux (comme une vitesse, des couples ou encore la position de pedales) mesures 
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lors d'essais. II s'agit d'utiliser cette quantification pour en tenir compte lors de la phase 
de conception du vehicule. II s'inscrit dans la continuity de travaux menes par Renault 
portant sur la prestation decollage a plat pour un groupe moto-propulseur a boite de 
vitesses robotisee (cf. Ansaldi [2]). 

Dans cet article, nous developpons une approche alternative pour le probleme de la 
selection des variables discriminantes en tentant de plus tirer profit du caractere fonc- 
tionnel des donnees. De ce point de vue, ce travail peut etre rapproche de l'analyse des 
donnees fonctionnelles. Citons Deville [11], Dauxois et Pousse [10] pour les travaux pion- 
niers dans les annees 70. Plus recemment, on peut citer par exemple, Leurgans et al. [22], 
Hastie et al. [20] et ces dernieres annees, Ferraty, Vieu [15], Ferre et al. ([17], [16]), Rossi 
et Conan-Guez [27], Biau et al. [5] ainsi que le texte de synthese de Besse, Cardot [4]. En 
outre les deux livres de Ramsay, Silverman [25], [26] constituent une ressource precieuse. 
Dans ce travail, nous preferons utiliser la methode CART particulierement adaptee pour 
la selection de variables. 

Comme cela est classique dans de nombreuses applications ou les variables explica- 
tives sont des courbes, le probleme industriel qui nous occupe est mal pose, au sens oil 
le nombre de variables explicatives est tres superieur a la taille de l'echantillon. L'un des 
exemples typiques de telles situations est fourni par les donnees d'expression du genome. 
On trouvera dans Dudoit et al. [13] la presentation de ce probleme et de diverses methodes 
de classification supervisee actuellement en competition. On pourra aussi consulter Van- 
nucci et al. [29] pour la situation ou les variables explicatives sont des spectres, ce qui est 
classique en chimiometrie. 

Structurellement le probleme industriel qui nous interesse presente une particularite 
supplementaire : nous disposons non pas d'une seule variable explicative qui est une 
courbe mais d'un grand nombre de variables fonctionnelles parmi lesquelles il faut choisir 
les plus influentes. Notre approche s'interesse done a un double probleme de selection : 
celle des variables fonctionnelles d'une part, et d'autre part pour chacune de ces courbes, 
la selection de bons descripteurs discriminants. 

La demarche adoptee procede en trois etapes et utilise deux outils fondamentaux 
que sont d'une part la methode des ondelettes (cf. Misiti et al. [24]) et d'autre part la 
methode de classification non lineaire CART (cf. [7]). Les trois etapes sont constitutes 
d'un pretraitement des signaux (incluant debruitage par ondelettes, recalage et synchro- 
nisation), d'une reduction de la dimension par compression dans une base d'ondelettes 
commune puis de l'extraction et selection des variables utiles au moyen d'une strategie 
incluant des applications successives de la methode CART. 

Le plan de Particle est le suivant. Apres cette introduction, le paragraphe 2 presente le 
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contexte de l'application : le probleme et les donnees. Dans le paragraphe 3, la demarche 
adoptee est detaillee. Enfin le paragraphe 4 regroupe quelques elements de conclusion. 

2 Le contexte applicatif 
2.1 Le probleme 

La campagne d'essais realisee par Renault (cf. Ansaldi [2]) a conduit a faire varier les 
facteurs suivants : le reglage de la boite de vitesses, les conditions de roulage et les pilotes. 
Lors de ces essais, ont ete mesures d'une part 1' agrement du pilote et d'autre part des 
donnees objectives consistant dans le releve, a l'aide de capteurs, de plusieurs signaux 
temporels. 

Precisons quelques elements de terminologie utiles dans la suite. On appelle "produit" un 
element de 

{produits} = {conditions de roulage} x {3 reglages de la boite de vitesses} 

oh 

{conditions de roulage} = {2 charges} x {2 angles pedale} x {2 vitesses pedale} 
ce qui conduit au plus a 24 produits (12 pour chacune des charges). 

On appelle "essai" un element de {essais} = {7 pilotes} x {24 produits} 
conduisant a un maximum de 168 essais. 

Les essais a 140 kg de charge ont ete menes separement des essais a 280 kg de charge. Pour 
chaque charge, 6 produits parmi les 12 possibles ont ete testes : 4 pilotes ont compare par 
paires ces 6 produits. Apres analyse des resultats, 114 essais a 140 kg et 118 essais a 280 
kg ont ete retenus. Chacun de ces essais est represents par un ensemble de 21 variables 
fonctionnelles qui correspondent aux signaux mesures par les capteurs durant l'experience. 

L'etude menee dans [2] s'articule autour de trois phases : 

• l'association d'un agrement a chacun des produits. 

Pour chaque paire d'essais, le pilote precisait son essai prefere. A partir de ces 
donnees de comparaisons par paires et a l'aide d'une methode inspiree du "multi- 
dimensional scaling" (voir la these de Favre [14]) sont obtenus un classement des 
produits par pilote et un agrement consensuel a toute la population des pilotes, par 
charge. Cet agrement associe a un produit un rang de satisfaction (le rang 1 etant 
celui du produit le plus apprecie); 

• l'extraction de criteres puis selection par analyse discriminante. 

A partir des signaux mesures, de tres nombreux criteres sont generes puis, au moyen 
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d'une analyse discriminante lineaire arborescente dite par moindres ecarts (c'est-a- 
dire basee sur un critere L 1 ), un petit nombre d'entre eux expliquant l'agrement, 
sont extraits; 

• le calcul d'intervalles de tolerance. 

Pour chacun des criteres pertinents, un intervalle qui maximise l'agrement sous 
certaines contraintes sur les produits, est construit (ce point constitue d'ailleurs la 
contribution majeure de la these d'Ansaldi [2]). 

On se concentre, dans cet article, sur la deuxieme etape en utilisant une approche plus 
fonctionnelle. Bien sur, on ne considere que les donnees issues de la phase 1 qui sont 
seules detaillees dans le paragraphe suivant. L'agrement est le rang consensuel attribue a 
chacun des 6 produits testes. Ceci conduit a un probleme de discrimination, au lieu d'un 
probleme de regression avec une variable a expliquer ordinale discrete. 

Dans la suite, ne seront considered que les essais a 140 kg de charge (pour les essais a 
280 kg de charge, la demarche est identique et les resultats obtenus dans l'etude [2] sont 
semblables) . 



2.2 Les donnees 

Les donnees sont constitutes des couples ((Xj )i<j<j, ^)i<i< n , ou n = 114 et J = 21, et : 

- Yi represente le rang attribue au produit teste lors de l'essai i; 

- X\ represente la j eme variable fonctionnelle mesuree lors de l'essai i et est le signal 
{Xf (t)}teTi ou Ti est la grille temporelle reguliere propre a l'essai i. 

Autrement dit, pour chacun des essais, on dispose de l'agrement et de 21 signaux (on 
parlera dans la suite, suivant le contexte, de signaux comme de variables fonctionnelles 
ou encore de courbes) pour la plupart d'environ 1000 points (en fait ils comportent entre 
600 et 5000 points). Ces variables fonctionnelles sont principalement des positions, des 
vitesses, des accelerations, des couples et des regimes moteur, cependant pour des raisons 
de confidentiality la nature des variables ne peut pas etre indiquee de fagon plus precise. 
Notons que la frequence d'echantillonnage de 250 Hz est la meme pour tous les essais et 
correspond a une haute resolution temporelle. 

La distribution de l'agrement Y, apres regroupement en 5 modalites, est donnee par 
les frequences 33%, 17%, 17%, 18%, 15%. Seulement 5 modalites, et non 6, sont prises en 
consideration, deux produits ayant obtenu le meme agrement. 
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On trouve dans la Figure 1, les quatre variables fonctionnelles X j correspondant a j — 4, 
14, 17, 22 pour les essais 7 et 19. 



Essai 7 




FIGURE 1 — Pour les essais 7 et 19, les quatre variables fonctionnelles X j cor- 
respondant a j = 4, 14, 17, 22, notees simplement V4, V14, V17 et V22. Elles sont 
observees sur une grille temporelle propre a l'essai et presentent des caracteristiqucs 
tcmporelles variees. 



L'examen des graphiques permet de formuler quelques remarques preliminaries concernant 
ces variables fonctionnelles : 

• elles sont observees sur une grille temporelle propre a l'essai, ce qui necessitera des 
recalages temporels ; 

• elles peuvent etre d'allure generale et d'ordre de grandeur tres differents, a la fois 
pour un meme essai mais aussi au travers des differents essais, ce qui impliquera des 
recalages en ordonnee des courbes ; 

• elles presentent des caracteristiques temporelles tres differentes, par exemple le rap- 
port signal sur bruit, eleve en general, peut s'averer modere comme dans le cas de la 
variable 22 ou encore l'etre localement comme c'est le cas pour ces quatre variables 
sauf la variable 14 qui est une fonction constante par morceaux. II est clair qu'un 
debruitage, sans etre en general crucial, peut s'averer utile ; 

• la forme generale est souvent simple et peu de parametres ou peu d'evenements 
semblent suffisants pour la caracteriser. Ceci permet d'esperer a la fois une ca- 
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racterisation econome des variables fonctionnelles ainsi qu'une compression efficace. 
Remarque 1 

La variability, entre les essais, des durees d'observation et celle des amplitudes des signaux 
mesures, resultent des differences de conditions de roulage et de l'execution plus ou moins 
scrupuleuse des consignes par les pilotes. 

3 La demarche 

Le cadre general dans lequel on se place est celui de la selection de variables dans un 
probleme de discrimination, et consiste a construire une fonction, generiquement notee F 
dans la suite, pour predire Y a l'aide de : 

Y = F(X\...,X J ) 

Dans cette perspective, il sera utile de selectionner parcimonieusement les variables fonc- 
tionnelles qui peuvent expliquer l'agrement, puis pour chacune d'elles, de ne retenir qu'un 
tres faible nombre d'aspects la decrivant, pour des raisons evidentes de robustesse. 

Autrement dit, on cherche a selectionner ce que nous appelons dans ce contexte, des 
criteres notes C jk , deduits des X\ de fagon a predire convenablement Y par : 

Y = F(C jl ,...,C jK ) 

avec K « J, typiquement de l'ordre de 5 pour l'application industrielle. 

Rappelons que dans le cadre de l'objectivation, il ne s'agit pas d'expliquer au mieux 
l'agrement en utilisant toutes les informations disponibles, comme par exemple les condi- 
tions de roulage, qui ont un impact certain, mais de l'expliquer partiellement en se re- 
streignant exclusivement a des variables deduites des signaux mesures de fagon a pouvoir 
remonter a des parametres de conception du vehicule. 

La demarche adoptee procede en trois etapes : 

• un pretraitement des signaux, incluant debruitage par ondelettes, recalage et syn- 
chronisation ; 

• une reduction de la taille des signaux par compression dans une base d'ondelettes 
commune ; 

• l'extraction des variables utiles au moyen d'une strategic pas a pas procedant par 
des applications successives de la methode CART. 

Detaillons successivement chacune de ces trois phases. 
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3.1 P ret rait ement des signaux 



Les donnees X\ = {X?(t)}teTi sont pretraitees de fagon d'une part, a les debruiter 
individuellement c'est-a-dire pour un essai et une variable fonctionnelle donnes et, d'autre 
part, a les rendre plus homogenes au moyen de recalages. 



3.1.1 Tronquer les signaux 

Avant ces deux traitements, on isole une phase qui est la seule a etre directement deduite 
de connaissances externes propres au probleme. En effet, en depit de consignes clairement 
definies, les durees d'enregistrement et les dates des differentes etapes de l'essai ne sont 
pas synchrones. Neanmoins, on peut definir deux evenements a realigner : le "vrai" debut 
de l'essai et sa "vraie" fin qui sont lisibles au travers des variables fonctionnelles 8 et 21. 
Ces deux evenements correspondent physiquement au demarrage reel du vehicule et a la 
definition de la fin de l'essai. 




Figure 2 - Pour les essais 7 et 19, les trois variables fonctionnelles X 3 correspondant a 
j = 8,21,7 notces simplement V8, V21 et V7 sur le graphique. Les deux premieres servent 
de marqueur au "vrai" debut de l'essai et sa "vraie" fin, respectivement. La periode utile 
de l'essai est visualisee sur les graphes de la variable fonctionnelle 7 par la portion de 
signal situee entre les deux instants materialises par des lignes verticales. 



On trouve dans la Figure 2, trois variables fonctionnelles correspondant a j — 8, 21, 7 
pour les essais 7 et 19. Les deux premieres servent de marqueur du "vrai" debut de 
l'essai et de sa "vraie" fin, respectivement. La periode utile de l'essai est visualisee sur 
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les graphes de la variable fonctionnelle 7 par la portion de signal situee entre les deux 
instants materialises par des lignes verticales. Bien sur, ces instants varient en fonction 
de l'essai. 

Pour l'essai i, on note Tj la grille Tj convenablement tronquee aux extremites. 

3.1.2 Debruiter les signaux 

A i et j fixes, le signal mesure est contamine par un bruit de capteur. Bien sur, il convient 
de l'eliminer avant tout traitement de type recalage ou interpolation des donnees, qui 
conduirait a les modifier et done alterer la nature stochastique du bruit qui affecte le signal 
utile. Comme l'atteste la Figure 1, la regularity locale de celui-ci peut beaucoup varier au 
cours du temps, il convient done d'utiliser des techniques de debruitage adaptatives en 
espace. C'est le cas de celles basees sur les methodes d'ondelettes (cf. Donoho, Johnstone 
[12] pour Fun des articles fondateurs, Vidakovic [30] pour un large tour d'horizon de ces 
methodes et Misiti et al. [24] pour une introduction aisee). 

On considere le modele suivant, usuel en traitement statistique du signal et realiste dans 
cette application : 

w G r„ x>(t) = fi(t) + v m 

ou {Vi(t)} te f. est un bruit blanc. Dans ce cadre, le debruitage consiste a decomposer le 
signal dans une base d'ondelettes, a seuiller les coefficients de detail de fagon a eliminer 
essentiellement ceux attribuables au bruit puis a reconstruire un signal debruite constitue 
de la somme d'une approximation lisse et de details a diverses echelles correspondant aux 
fluctuations rapides du signal utile. 

On obtient ainsi une estimation {fl(t)} te f., ou encore un signal debruite {X?(t)} te f,. La 
Figure 3 presente les resultats obtenus apres debruitage par ondelettes des quatre variables 
fonctionnelles montrees en Figure 1. La methode utilise l'ondelette de Daubechies presque 
symetrique d'ordre 4, un niveau de decomposition entre 3 et 5 (suivant les signaux) et le 
seuillage dit "universel" (cf. Donoho et Johnstone [12]). 

Comme on peut le remarquer, le debruitage par ondelettes permet de supprimer de fagon 
satisfaisante le bruit tout en preservant les composantes a haute frequence du signal utile. 

3.1.3 Synchroniser et normaliser les signaux 

L'objectif de cette etape est d'eliminer la dependance en i de la grille temporelle. On 
procede pour chaque signal, tout d'abord a un recalage lineaire en temps en ramenant la 
grille Tj sur l'intervalle [0, 1]. Puis, on effectue une interpolation lineaire du signal, suivie 
d'un echantillonnage pour se ramener a la grille reguliere a m points de [0, 1] (ici on fixe 
m = 512, valeur largement suffisante pour des durees de fenetres actives comprises entre 
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Figure 3 - Pour r essai 7, en haut dc la figure les quatre signaux X%(t) 
(j = 4, 14, 17, 22) ct, en bas, leurs versions debruitees. Dans les deux derniers 
graphiques a droite, un zoom sur une portion du premier signal permet d'apprecier 
la qualite du dcbruitage par ondelettes, a la fois efRcace pour debruiter les parties 
lisses tout en preservant les composantes a haute frequence du signal utile. 



300 et 700 observations). Un instant dans cette nouvelle "unite" de temps s'interprete 

comme la proportion de la duree de l'essai ecoulee. 

On dispose done de {X? (£)} teT , sur la grille fixe T — !2 ^-, 1}. 

Enfin, pour eliminer certains effets d'echelle, en partie lies aux conditions de roulage, les 
signaux sont normalises en ordonnee. 

Remarque 2 

Un autre pretraitement consiste a effectuer un recalage non lineaire en alignant pour 
tout j, les n signaux a l'aide de marqueurs convenablement choisis (cf. Bigot [6]). Ceci 
amenerait a considerer le probleme plus sous un aspect de classification de formes. Ce- 
pendant, cela serait extremement lourd et engendrerait une difSculte quant a la remontee 
dans le temps d'origine en particularisant de nouveau les variables fonctionnelles, et limi- 
terait l'interpretation. 

En revanche, cela permettrait de poursuivre un objectif plus ambitieux consistant a aug- 
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menter l'homogeneite a Y fixe, en mettant au point le recalage pour chaque modalite de 
la reponse. 

Mentionnons que des methodes de recalage temporel intermediaires entre la solution 
adoptee et celle-ci sont envisageables, comme par exemple le type de methode de re- 
calage decrit dans [25] qui cherche a rapprocher des fonctions de leur moyenne. 

Remarque 3 

De maniere implicite, dans la suite du travail (mais aussi dans les travaux anterieurs 
menes dans ce contexte par Renault), les essais sont considered comme des replications 
independantes. Des classifications non supervisees et des ACP fonctionnelles (cf. Ramsay, 
Silverman [25]) permettent de corroborer raisonnablement l'idee que les effets dus au pilote 
et aux conditions de roulage sont negligeables devant les autres facteurs de variabilite. 

3.2 Compression des signaux 

A Tissue de la phase de pretraitement, on dispose done pour chaque essai, de J = 21 
signaux debruites, de m = 512 points. Chacun de ces signaux peut done etre represente 
dans une base d'ondelettes ou de paquets d'ondelettes par tres peu de coefficients (cf. 
Mallat [23] et Coifman, Wickerhauser [9]). II suffit, par exemple, pour un signal donne, de 
selectionner les coefficients les plus grands en valeur absolue, exploitant ainsi la capacite 
des ondelettes a concentrer l'energie d'un signal (pour des classes tres larges de signaux), 
en un tres petit nombre de ses grands coefficients d'ondelettes. 

Le probleme est ici de choisir, variable fonctionnelle par variable fonctionnelle, une base 
commune a tous les essais pour les representer de fagon compacte. Pour determiner une 
base commune de decomposition, on peut se restreindre a un petit nombre de bases 
differentes comme les espaces d'approximation en ondelettes de resolution de plus en plus 
grossiere. Comme 512 = 2 9 , seule une demie douzaine de bases, l'ondelette etant choisie 
(ici on utilise l'ondelette de Daubechies presque symetrique d'ordre 4), sont a mettre en 
competition. Le choix peut etre : 

• effectue independamment de la variable Y et guide par la definition d'un critere de 
qualite comme par exemple la moyenne de l'erreur d'approximation du signal par 
sa projection convenablement penalise. 

Afin de determiner le niveau de decomposition de chacun des signaux j, on considere 
le critere EQj(p) lie a l'energie et defini comme suit : 

— pour une variable fonctionnelle j et pour un individu i, soit X?(t) le signal 
d'origine et A\ (t) le signal reconstruit a partir des coefficients d'approximation 
du niveau p ; 
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— on definit l'erreur de la variable fonctionnelle j par 
Remarque 4 

Notons que, lorsque le niveau de decomposition p augmente, le nombre de coeffi- 
cients et la qualite d' approximation diminuent. Le choix du niveau de decomposition 
resulte d'un compromis entre le nombre de coefficients retenus et la qualite d'approximation. 



Le choix du niveau de decomposition de la variable j consiste alors a determiner la 
plus petite valeur de p pour laquelle on detecte un changement de pente "suffisant" 
dans le graphe de (p, EQj(p))i< p < 9 et a oter 1 a titre conservatoire. 



variable fonctionnelle 1 



variable fonctionnelle 2 





variable fonctionnelle 13 



variable fonctionnelle 21 
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FIGURE 4 — Pour les variables fonctionnelles 1,2,13 et 21, on represente 
(p, EQ(p))i< p <Q en trait plein, la plus petite valeur de p pour laquelle on detecte 
un changement de pente "suffisant" en traits pointillcs et cette valeur otee de 1 en 
traits pleins. 



La Figure 4 esquisse la fagon dont le niveau de decomposition lors de la compression 
par ondelettes est determine pour chacun des signaux. 
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• base sur un critere dependant de la variable Y, comme par exemple l'erreur de 
classification d'un arbre CART (voir paragraphe suivant). 



L'emploi d'une procedure inspiree du premier choix ci-dessus avec recherche d'une cassure 
dans la repartition moyenne de l'energie, conduit a retenir majoritairement 16 coefficients 
et done a reduire K. J x rn a ™ J avec ^ rrij ~ 300 ou 400 suivant la strategie adoptee 
pour comprimer une variable fonctionnelle (d'ailleurs non discriminante) dont les fluctua- 
tions a haute frequence sont significatives. 

La Figure 5 presente pour deux variables fonctionnelles, les resultats obtenus apres com- 
pression par ondelettes : le signal apres compression superpose au signal pretraite est 
represente dans le premier graphique, le second (en dessous) contient les coefficients 
d' approximation associes. Ceux-ci peuvent, bien sur, etre de taille differente puisque le 
niveau de decomposition retenu depend de la variable consideree. 




FIGURE 5 — Pour l'essai 7 et pour les deux variables correspondant a j = 4, 22 : 
en haut, le signal apres compression superpose au signal original (pretraite), en bas 
les coefficients d'approximation associes. 



Les deux graphiques du haut de la Figure 5 contiennent, pour l'essai 7 et pour deux va- 
riables fonctionnelles differentes, le signal apres compression superpose au signal d'origine. 
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lis sont tres proches bien que represented par peu de coefficients. En effet, les deux gra- 
phiques du bas de la figure contiennent les coefficients d'approximation associes aux 
representations comprimees. Ainsi, la forme des graphiques du haut et du bas de la figure 
se ressemblent sauf aux extremites de l'axe des abscisses a cause d'extra-coefficients, en- 
gendres par les prolongements appliques aux signaux dans les calculs des coefficients par 
la transformee en ondelettes discrete (voir [24] ) . 

Remarque 5 

Signalons que la connexion entre les developpements sur des bases orthogonales d'ondelettes 
de processus stochastiques et les decompositions issues de la transformee discrete en on- 
delettes est donnee, par exemple, dans Amato et al. [1]. 

Remarque 6 

Une autre approche associant plus etroitement les phases de compression et de selection 
des variables discriminantes est proposee par Coifman, Saito [8]. II s'agit de choisir une 
base optimale, parmi les bases associees a une decomposition en paquets d'ondelettes, en 
maximisant la separation entre classes. 

Elle n'est pas retenue ici, une voie mediane est empruntee : des gains massifs en compres- 
sion sont obtenus meme au prix d'un politique de selection un peu conservative de facon 
a ne pas trop oberer la phase suivante qui fera le choix des variables les plus discrimi- 
nantes. On note & = (C J ' 1 , ,K ') le paquet des Kj coefficients associes a la variable 
fonctionnelle XK 

3.3 Selection de variables par CART 

A la fin de l'etape precedente, il y a une reduction de la dimension de l'espace des variables, 
mais elle demeure insuffisante puisque Ton dispose de 114 individus a comparer a 300 ou 
400 variables. 

Les nouvelles donnees ainsi construites sont done : (((Cf' k )i<k<Kj)i<j<j, ^)i<i<n- 

On propose une procedure pas a pas basee sur la methode CART. Celle-ci permet d'ajuster 
aux donnees, un modele additif du type Y = F((C j ' k )j jk ) ou F est additive et plus 
precisement constante sur des polyedres dont les cotes sont paralleles aux axes, sous la 
forme d'un arbre dyadique de decision. On peut se reporter au livre de Breiman et al. [7] 
les fondateurs de la methode ou Hastie et al. [21] pour un rapide apergu. Dans la suite, 
on considere l'erreur de classification definie comme usuellement mais en penalisant les 
fausses classifications par le truchement de la matrice de cout definie par r(fc, k') = \k — k'\, 
definition qui decoule naturellement du fait que Y est une variable ordinale discrete. 

La procedure est presentee ci-dessous en cinq phases : 
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1. Pour chaque j, on construit l'arbre CART A? expliquant Y par le paquet de co- 
efficients C- 7 et on selectionne, au moyen de l'importance des variables au sens de 
Breiman et al. [7] (voir aussi [19] et [18]), le paquet des coefficients utiles, note & , 
en seuillant l'importance comme illustre dans la Figure 6. 




— 1 — 1 — 1 — 1 — 1 — 1 — 1 — 1 — 1 — 1 — 1 — 1 — 1 — 1 — 1 o 

5 10 15 10 20 30 



FIGURE 6 — Pour les essais 7 et 19, ct pour les variables correspondant a 
j = 17, 22, en haut les signaux prctraites, au milieu le paquet C J des coefficients 
d'approximation de niveau retenu et en bas l'importance de chacun de ces coeffi- 
cients. Les coefficients utiles constituant & sont ceux dont l'importance depasse 
le seuil. 



On peut noter que les pics dans les graphes de l'importance des variables corres- 
pondent non pas seulement, a des marqueurs significatifs de la forme du signal mais 
bien a des evenements significatifs discriminants. 

2. On en deduit un ordre sur les "nouvelles" variables fonctionnelles (e'est-a-dire sur les 
paquets au moyen de l'erreur de classification, evaluee par validation croisee, 
commise par l'arbre A> (voir Figure 7). 

3. On construit une suite ascendante (M j )j d'au plus J = 21 modeles CART emboites, 
en invoquant et en testant les paquets de variables & , pas a pas, suivant l'ordre 
precedemment obtenu. Autrement dit, M J explique Y par l'ensemble de paquets 
de coefficients (C l )i<j prives des paquets qui se sont reveles, apres test, comme 
insuffisamment informatifs. 
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FIGURE 7 — L'erreur de classification evaluee par validation croisee des arbres 
A 7 , de la meilleure a la pire. Elle fluctue dans un rapport de 1 a 3. Cet ordre sur 
les "nonvelles" variables fonctionnelles est celni qui sera utilise pour les invoqucr 
pas a pas. 



O.G5 



o.e - 




O 2 4 6 8 10 12 

j, le nombre de paquets de coefficients introduits 

FIGURE 8 — L'erreur de classification du modele ikF evaluee par validation 
croisee, en fonction de j, lc nombre de paquets de coefficients introduits. 



4. On selectionne ensuite les variables fonctionnelles pertinentes en choisissant celles 
definissant le modele M jo minimisant l'erreur de classification. L'allure de celle-ci 
(cf. Figure 8) est attendue : elle decroit d'abord fortement avant de lentement croitre 
lorsque les variables introduites n'apportent plus rien a la discrimination. 

5. Enfin, en calculant l'importance des variables explicatives du modele M jo : les co- 
efficients {C j ,j G M jo } et en retenant la tete de ce classement, on selectionne les 
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criteres pertinents (voir Figure 9). 



4(11) 

O 

21(B) 



9 Q o o ra n 



FIGURE 9 — Importance des variables calculee sur le modele M J0 selectionne 
precedemment et selection finale des trois criteres dont les importances ressortent 
nettcmcnt en tete. 



Une premiere fagon de proceder, tres dependante du probleme, consiste a ne retenir que 
les 5 premieres variables, 5 etant le nombre souhaite de criteres. On obtient alors un arbre 
dont l'erreur de validation croisee est de 24 sur 114 pour 12 erreurs apparentes (c'est-a- 
dire l'erreur de resubstitution). 

Une alternative consiste a considerer l'erreur de validation croisee sur la suite de modeles 
emboites induite par l'ordre issu du calcul de l'importance des variables. On selectionne 
alors le modele dont l'erreur est la plus faible. 



nombre de 
variables 
selectionnees 


2 


3 


4 


5 


6 


7 


8 


9 


10 


11 


12 


13 


14 


15 


erreur 
apparente 


35 


15 


41 


12 


11 


11 


13 


9 


13 


9 


8 


8 


12 


7 


validation 
croisee 


47 


40 


30 


24 


29 


27 


21 


19 


25 


21 


17 


19 


21 


21 



Table 1 - Nombre d'erreurs commises sur l'echantillon d'ap- 
prentissage en fonction du nombre de variables retenues. 



La Table 1 donne, pour les modeles de cette suite dont le nombre de variables est inferieur 
a 15, l'erreur apparente et l'erreur de validation croisee. Le meilleur modele est celui 
comportant 12 variables. L'erreur commise est de 17 sur 114 (15%) et l'erreur apparente 
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de 8 sur 114 (7%), ce qui est tres satisfaisant. 

Enfin, si l'on examine l'arbre CART construit en se restreignant a ces 12 variables (cf. 
Figure 10), il est interessant de noter que 5 variables seulement etiquettent les nceuds de 
l'arbre et 4 d'entre elles sont en tete du classement fourni par la Figure 9. 



FIGURE 10 — Arbre dont l'erreur de classification, evaluee par validation croisee, 
est la plus faible. 



Remarque 7 

Terminons par une remarque generate dont la portee methodologique est cruciale. 
Un inconvenient classique de l'usage des arbres de classification est leur instabilite, c'est- 
a-dire que le classifieur construit peut fluctuer "beaucoup" pour des "petites" variations 
de l'echantillon d'apprentissage (cf. Hastie et al. [21]). Un remede desormais classique a 
cette propriete indesirable est d'utiliser le bagging qui permet de stabiliser la prediction 
en utilisant non pas un classifieur mais l'agrege d'un ensemble de classifieurs construits 
par reechantillonnage bootstrap de l'echantillon d'apprentissage (voir Ghattas [18]). 

Suivant cette idee (voir Ghattas [19]), l'importance des variables et l'erreur de clas- 
sification sont evaluees par reechantillonnage. Plus precisement, pour la phase 1, on 
considere la moyenne des importances des variables calculees sur des arbres obtenus par 
reechantillonnage n pour n, des 114 observations. Pour l'estimation de l'erreur de classi- 
fication, elle est evaluee par validation croisee grace a un schema de decoupage en 10 de 
l'echantillon puis stabilisee en randomisant cette phase de decoupage. 
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4 Conclusion 



Du point de vue de l'application, les criteres qui ressortent comme les plus discriminants 
sont associes a quatre variables fonctionnelles. Parmi eux, deux sont tres proches des 
criteres obtenus par la methode basee sur la methode discriminante lineaire et deux sont 
nouveaux et considered par les experts comme interessants. II faut noter que dans notre 
cas, ces criteres ont ete obtenus sans integrer de connaissances a priori, sauf dans la 
phase de troncature de la grille temporelle des observations. Signalons cependant que les 
conditions d'arret dependent de seuils fixes pour le moment en fonction de l'application. 

Complementairement a ce travail, des avancees concernent l'etude theorique de penalites 
adequates pour faire de la selection de variables dans des contextes voisins (cf. Sauve, 
Tuleau [28]). Typiquement il s'agit d'utiliser une approche par selection de modele "a la 
Birge-Massart" (cf. Barron, Birge, Massart [3]) pour selectionner des variables dans un 
modele de regression non lineaire, au moyen d'applications repetees de la methode CART. 
Des resultats de type inegalites oracles permettent de preciser la forme des penalites 
convenables et peuvent suggerer des alternatives au choix ad-hoc effectues ici. 
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